تخمین با معیار مربع خطا: هدف: با مشاهده X Y را حدس بزنیم. :y X: مکان هواپیما مثال: مشاهده نقطه ( مجموعه نقاط کنارهم ) روی رادار - فرض کنیم می دانیم توزیع احتمال X به چه صورت است. حالت صفر: بدون مشاهده X را تخمین بزنیم. مقدار تخمین مقدار واقعی ] 2 C) = E[(X متوسط مربع خطا = X C خطا بهترین تخمین مقداری است که متوسط مربع خطا مینیمم باشد: E[(X C) 2 ] = Var(X C) + (E[X C]) 2 = Var(X) + (E[X] C) 2 C = E[X] کمترین مقدار مربع متوسط خطا: حالت یک: با مشاهده متغیر تصادفی.Y=y با مشاهده Y=y توزیع احتمال fx(x) به توزیع fx Y(x y) تغییر می کند و در نتیجه بهترین تخمین به صورت زیر تغییر خواهد کرد. C = E[X Y = y] بهترین تخمین با معیار متوسط مربع خطا: مثال: فرض کنید X توزیع یکنواخت در بازه [4,10] وارد و ما X را آغشته به نویز W می کنیم. W توزیع یکنواخت دارد )در بازه [1,1-] ) و Y=X+W مستقل از X است. بهترین تخمین X به شرط مشاهده Y با معیار متوسط مربع خطا را بیابید. 1 شکل y) (x, 12 f X Y (x y) = { شکل y) (x, 0 C=E[X Y=y] - اگر E[X Y] X = تخمین X به شرط Y باشد خطای تخمین به صورت X = X X می باشد. قضیه: برای تخمین بهینه: 1) E[X ] = 0 2) E[X Y = y] = 0 اگر g(y) هر تخمین گر دیگری باشد ] 2 g(y)) 3) E[(X E[X Y]) 2 ] E [(X 4) Cov = (X, X ) = 0 غیر وابسته هستند X, X اثبات: )2 E[X Y] = E[X X Y] = E[X Y] E[X Y] = E[X Y] E[E[X Y] Y] = E[X Y] E[X Y] = 0
)1 E[X ] = E[E[X Y]] = E[0] = 0 )3 Cov(X, X ) = E[(X E[X ])(X E[X ])] = E[X (X E[X ])] = E [E[X (X E[X ]) Y]] = E [E[X (X E[X]) Y]] = (X E[X])E[X Y] = 0 E[X ] = E[E[X Y]] = E[X] قضیه: Var(X) = Var(X ) + Var(X ) اثبات: X = X + X Var(X) = Var(X ) + Var(X ) + 2Cov(X, X )... Y1 تخمین بر اساس چندین مشاهده: فرض کنیم برای تخمین X چندین متغیر تصادفی Y مشاهده شده باشند آنگاه می توان نشان داد: E[(X E[X Y 1, Y 2,, Y ]) 2 ] E [(X g(y 1, Y 2,, Y )) 2 ] مشکالت: محاسبه ] E[X Y 1, Y 2,, Y در حالت کلی می تواند دشوار باشد. E[X Y 1, Y 2 ] = xf X Y1,Y 2 (x y 1, y 2 )dx f X Y1,Y 2 (x y 1, y 2 ) = f X,Y 1,Y 2 (x, y 1, y 2 ) f Y1,Y 2 (y 1, y 2 ) )انتگرال گیری ممکن است سخت باشد( )محاسبه چگالی احتمال ممکن است امکان پذیر نباشد( به جای تخمین بهینه در بسیاری از موارد از تخمین گر خطی استفاده می کنیم: g(y 1, Y 2,, Y ) = a 1 Y 1 + a 2 Y 2 + + a Y + b هدف محاسبه a 1, a 2,, a, b است به گونه ای که بهترین تخمین را داشته باشیم. ] 2 b) = E[(X a 1 Y 1 a 2 Y 2 a Y متوسط مربع خطا فرض می کنیم g(y) = ay + b بصورت یک خط باشد: + 2aE[XY] = E[(X ay b) 2 ] = E[(X ay) 2 + b 2 2b(X ay)] = E[X 2 ] + a 2 E[Y 2 ] متوسط مربع خطا 2abE[Y] 2bE[X] + b 2 a = 0 = متوسط مربع خطا 2aE[Y2 ] 2E[XY] + 2bE[Y] b 2E[X] + 2aE[Y] + 2b = 0 = متوسط مربع خطا
Cov(X, Y) a = σ2 y b = E[X] ae[y] Cov(X, Y) ρ = { σ x σ y 2 2 با فرض Var(X) = σ x, Var(Y) = σ y داریم: g(y) = E[X] + ρ σ x σ y (Y E[Y]) - ضریب تخمین زن خطی تابعی از واریانس ها و کوواریانس ها خواهد بود لذا کار کردن با تخمین زن های خطی بسیار ساده تر است. قضایای حدی: به بررسی رفتار حدی دسته ای از متغیر های تصادفی می پردازد. اگر فرض کنیم X 1, X 2,, X مستقل و توزیع یکسان دارند i.i.d( )idepedet idetically distributed فرض می کنیم میانگین متغیر های تصادفی µ و واریانس آن ها σ 2 کنیم. قضایای حدی معموال به بررسی رفتار باشد می خواهیم رفتار حدی S = X 1 + X 2 + + X را بررسی S وقتی به بینهایت میل میکند می پردازند. S = X 1 + X 2 + + X E[S ] = E[X 1 ] + + E[X ] = μ Var(S ) = Var(X 1 ) + + Var(X ) = σ 2 می توان به جای S متغیر تصادفی میانگین نمونه ها را بررسی کرد: E[μ ] = μ μ = X 1 + X 2 + + X Var(μ ) = σ2 همچنین می توان به متغیر تصادفی زیر نگاه کرد: Z = S μ σ E[Z ] = 0 Var(Z ) = 1 Z Z قضیه حد مرکزی: به شکل توزیع احتمال حدی می پردازد و نشان می دهد در حالت حدی به توزیع نرمال استاندارد میل می کند. نامساوی مارکوف: اگر متغیر تصادفی X غیر منفی باشد آنگاه P(X a) E[X] a a > 0
اثبات: I = { 1 X a 0 X < a E[I] = f X (x) dx = P(X a) ai X E[aI] E[X] ap(x a) E[X] P(X a) E[X] a a P( X μ c) = P((X μ) 2 c 2 ) E[(X μ)2 ] c 2 σ 2 نامساوی چبیشف: اگر متوسط و واریانس متغیر تصادفی برابر µ و باشد آنگاه P( X μ c) σ2 اثبات : 0 > c c 2 = σ2 c 2 قانون ضعیف اعداد بزرگ: μ = X 1+X 2 + +X میانگین نمونه تعداد زیادی متغیر تصادفی i.i.d به میانگین واقعی با احتمال زیادی نزدیک می شود. : P( μ μ ε) σ2 نامساوی چبیشف ε 2 برای هر > 0 ε یک N وجود دارد که برای > N احتمال ε) P( μ μ کوچکتر از ε خواهد بود.. P ( X 1 + X 2 + + X μ ε) 0 مثال: )رای گیری( فرض کنیم p درصد رای دهندگان به شخص A رای می دهند از نفر به صورت تصادفی رای آن ها را می پرسیم. نفر iام به A رای میدهد { 1 = i X نفر iام به A رای نمیدهد 0 E[X i ] = p, var(x i ) = p(1 p) پس می توانیم به کمک µ و p را تخمین بزنیم P( µ p Ɛ) p(1 p) Ɛ 2 1 4Ɛ 2
مثال اگر 100= و 0.1=Ɛ )خطا یا دقت( P( µ p 0.1) 1 در نتیجه احتمال آنکه = 0.25 2 (0.1) 100 4 60 درصد رای دهندگان ±0.1 به شخص A رای دهند بیشتر از 75 درصد است. معموال 5% =Ɛ و قطعیت 95% است: P( µ p 0.05) 1 0.95 = 0.05 2000 P( µ p 0.01) 0.05 50000 نامساوی یک طرفه چبیشف: اگر X متغیر تصادفی با میانگین صفر و واریانس σ 2 باشد آنگاه : P(X a) σ 2 اگر E[X] = μ و σ 2 + a 2 a > 0 : Var(X) = σ 2 P(X μ + a) σ 2 σ 2 + a 2 P(X μ + a) σ 2 σ 2 + a 2 نامساوی چرنوف: P(X a) E[esX ] e sa = e sa M X (s) s > 0 { P(X a) E[esX ] e sa = e sa M X (s) s < 0 { P(X a) mi[e sa M X (s)] s > 0 P(X a) mi[e sa M X (s)] s > 0 اثبات: P(X a) = P (SX Sa) = P(e Sx e Sa ) E[eSx ] e Sa = e Sa M x (s) P(X a) = φ(a) mi [e Sa e S2 2 ] = e a2 2 s < 0 مثال: فرض کنید X متغیر تصادفی نرمال استاندارد است حد در احتمال: lim a = a a میل می کند یعنی تعریف حد: برای رشته ای از اعداد...,a1 گوییم رشته به عدد اگر: ε > 0 0 > 0 > 0 a a < ε
تعریف حد در احتمال: می گوییم یک رشته از متغیر های تصادفی Y1,Y2, در احتمال به a میل می کند اگر: سطح قطعیت δ: دقت ε: ε > 0 0 > 0 > 0 P( Y a ε) δ Y > 0 برای هر دقت و سطح قطعیت یک 0 وجود دارد که برای با دقت و سطح قطعیت داده شده با a برابر است)حول a است( مثال:فرض کنیم Xi ها متغیر های تصادفی مستقل با توزیع یکنواخت در بازه [0,1] باشند. Y = mi (X 1, X 2,, X ) ε > 0 P( Y 0 ε) = P(X 1 ε, X 2 ε,, X ε ) = P(X 1 ε) P(X 2 ε) P(X ε) = (1 ε) 0 انتظار داریم Y به صفر میل کند lim P( Y 0 ε) 0 اگر Y در احتمال به a میل کند آنگاه لزوما E[Y] به a میل نمی کند. مثال: 1 1 y = 0 P(Y = y) 1 y = 2 { 0 other wise E[Y N ] = 0 (1 1 ) + 2 ( 1 ) = Y { 0 E[Y ]